Sous-échantillonnage topographique par apprentissage semi-supervisé
نویسندگان
چکیده
Résumé. Plusieurs aspects pourraient influencer les systèmes d’apprentissage existants. Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d’observations appartenant à une classe, dépasse fortement celui des observations dans les autres classes. Dans ce type de cas assez fréquent, le système d’apprentissage a des difficultés au cours de la phase d’entraînement liées au déséquilibre inter-classe. Nous proposons une méthode de sous-échantillonnage adaptatif pour traiter ce type de bases déséquilibrées. Le processus procède par le sous-échantillonnage des données majoritaires, guidé par les données minoritaires tout au long de la phase d’un apprentissage semi-supervisée. Nous utilisons comme modèle d’apprentissage les cartes auto-organisatrices. L’approche proposée a été validée sur plusieurs bases de données en utilisant les arbres de décision comme classificateur avec une validation croisée. Les résultats expérimentaux ont montré des performances très prometteuses.
منابع مشابه
Parallel and Distributed Approaches for Graph Based Semi-supervised Learning
Two approaches for graph based semi-supervised learning are proposed. The first approach is based on iteration of an affine map. A key element of the affine map iteration is sparse matrix-vector multiplication, which has several very efficient parallel implementations. The second approach belongs to the class of Markov Chain Monte Carlo (MCMC) algorithms. It is based on sampling of nodes by per...
متن کاملSLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings
Résumé. La tâche de classification supervisée consiste à induire un modèle de prédiction en utilisant un ensemble d’échantillons étiquetés. La précision du modèle augmente généralement avec le nombre d’échantillons disponibles. Au contraire, lorsque seuls quelques échantillons sont disponibles pour l’apprentissage, le modèle qui en résulte donne généralement des résultats médiocres. Malheureuse...
متن کاملModélisation de tables de contingence par arbres d'induction
RÉSUMÉ. Cet article est consacré à l’évaluation statistique des descriptions de tables de contingence fournies par les arbres d’induction. On se limite au cas particulier de données catégorielles. Trois aspects sont successivement abordés. i) La nature de l’ajustement en apprentissage supervisé, où l’on souligne la distinction entre prédiction de valeurs individuelles et prédiction de leur repr...
متن کاملApprendre et Optimiser la courbe ROC
Un nouveau critère pour l’évaluation des hypothèses extraites par apprentissage supervisé a été introduit depuis la fin des années 90 : l’aire sous la courbe ROC (AUC). Ce critère induit une nouvelle approche de l’apprentissage, utilisant l’AUC comme critère de choix des hypothèses. L’approche présentée dans cet article s’attaque à l’optimisation de ce critère dans le cadre d’hypothèses linéair...
متن کاملValidation statistique des cartes de Kohonen en apprentissage supervisé
Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenn...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2010